智能论文笔记

AugmentedPCA: A Python Package of Supervised and Adversarial Linear Factor Models

William E. Carson IV , Austin Talbot , David Carlson

分类： (统计)机器学习 | 机器学习

2022-01-07

深度自身偏移通常具有监督或对抗的损失，以学习具有所需性质的潜在表示，例如对敏感变量的标签和结果或公平的更大预测性。尽管受到监督和对抗性深度潜在因子模型的难以致力于，但这些方法应该表现出更简单的线性方法在实践中优选的改进。这需要可重复的线性模拟，仍然遵守增强监督或对抗目标。我们通过提出使用监督或对冲目标的主成分分析（PCA）目标的方法来解决该方法论差距，并提供分析和可重复的解决方案。我们在开源Python软件包中实现这些方法，AugmentedPCA，可以生产出色的真实基础。我们证明了这些因子模型在开源的RNA-SEQ癌症基因表达数据集上的效用，表明增强具有监督目标，提高下游分类性能，产生具有更大级别保真度的主要成分，并有助于鉴定对齐的基因利用具有对特定类型癌症的发展的主要数据差异轴。

translated by 谷歌翻译

Estimating Potential Outcome Distributions with Collaborating Causal Networks

Tianhui Zhou , William E Carson IV , David Carlson

分类： (统计)机器学习 | 机器学习

2021-10-04

传统的因果推理方法利用观察性研究数据来估计潜在治疗的观察到的差异和未观察到的结果，称为条件平均治疗效果（CATE）。然而，凯特就对应于仅第一刻的比较，因此可能不足以反映治疗效果的全部情况。作为替代方案，估计全部潜在结果分布可以提供更多的见解。但是，估计治疗效果的现有方法潜在的结果分布通常对这些分布施加限制性或简单的假设。在这里，我们提出了合作因果网络（CCN），这是一种新颖的方法，它通过学习全部潜在结果分布而超出了CATE的估计。通过CCN框架估算结果分布不需要对基础数据生成过程的限制性假设。此外，CCN促进了每种可能处理的效用的估计，并允许通过效用函数进行特定的特定变异。 CCN不仅将结果估计扩展到传统的风险差异之外，而且还可以通过定义灵活的比较来实现更全面的决策过程。根据因果文献中通常做出的假设，我们表明CCN学习了渐近捕获真正潜在结果分布的分布。此外，我们提出了一种调整方法，该方法在经验上可以有效地减轻观察数据中治疗组之间的样本失衡。最后，我们评估了CCN在多个合成和半合成实验中的性能。我们证明，与现有的贝叶斯和深层生成方法相比，CCN学会了改进的分布估计值，以及对各种效用功能的改进决策。

translated by 谷歌翻译

Online Learning-based Waveform Selection for Improved Vehicle Recognition in Automotive Radar

Charles E. Thornton , William W. Howard , R. Michael Buehrer

分类：机器学习

2022-12-01

This paper describes important considerations and challenges associated with online reinforcement-learning based waveform selection for target identification in frequency modulated continuous wave (FMCW) automotive radar systems. We present a novel learning approach based on satisficing Thompson sampling, which quickly identifies a waveform expected to yield satisfactory classification performance. We demonstrate through measurement-level simulations that effective waveform selection strategies can be quickly learned, even in cases where the radar must select from a large catalog of candidate waveforms. The radar learns to adaptively select a bandwidth for appropriate resolution and a slow-time unimodular code for interference mitigation in the scene of interest by optimizing an expected classification metric.

translated by 谷歌翻译

Ontologizing Health Systems Data at Scale: Making Translational Discovery a Reality

Tiffany J. Callahan , Adrianne L. Stefanski , Jordan M. Wyrwa , Chenjie Zeng , Anna Ostropolets , Juan M. Banda , William A. Baumgartner Jr. , Richard D. Boyce , Elena Casiraghi , Ben D. Coleman

分类：人工智能

2022-09-10

通用数据模型解决了标准化电子健康记录（EHR）数据的许多挑战，但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论（OBO）铸造本体论提供了可用于生物学知识的语义计算表示，并能够整合多种生物医学数据。但是，将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架，用于将观察性医学成果合作伙伴关系（OMOP）标准词汇介绍给OBO铸造本体。使用此框架，我们制作了92,367条条件，8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性，并且在24家医院进行检查时，映射覆盖了99％的条件和药物成分和68％的测量结果。最后，我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。

translated by 谷歌翻译

DAVE Aquatic Virtual Environment: Toward a General Underwater Robotics Simulator

Mabel M. Zhang , Woen-Sug Choi , Jessica Herman , Duane Davis , Carson Vogt , Michael McCarrin , Yadunund Vijay , Dharini Dutia , William Lew , Steven Peters

分类：机器人

2022-09-06

我们提出Dave Aquatic Virtual Environals（Dave），这是用于水下机器人，传感器和环境的开源仿真堆栈。传统的机器人模拟器并非旨在应对海洋环境带来的独特挑战，包括但不限于在空间和时间上变化的环境条件，受损或具有挑战性的感知以及在通常未探索的环境中数据的不可用。考虑到各种传感器和平台，对于不可避免地抵制更广泛采用的特定用例，车轮通常会重新发明。在现有模拟器的基础上，我们提供了一个框架，以帮助加快算法的开发和评估，否则这些算法需要在海上需要昂贵且耗时的操作。该框架包括基本的构建块（例如，新车，水跟踪多普勒速度记录仪，基于物理的多微型声纳）以及开发工具（例如，动态测深的产卵，洋流），使用户可以专注于方法论，而不是方法。比软件基础架构。我们通过示例场景，测深数据导入，数据检查的用户界面和操纵运动计划以及可视化来演示用法。

translated by 谷歌翻译

Knowledge-Driven Mechanistic Enrichment of the Preeclampsia Ignorome

Tiffany J. Callahan , Adrianne L. Stefanski , Jin-Dong Kim , William A. Baumgartner Jr. , Jordan M. Wyrwa , Lawrence E. Hunter

分类：人工智能

2022-07-28

子痫前期是孕产妇和胎儿发病率和死亡率的主要原因。目前，先兆子痫的唯一明确治疗方法是胎盘的递送，这对于疾病的发病机理至关重要。已经广泛地进行了鉴定出差异表达的基因（DEGS），已经进行了广泛的先兆子痫对人胎盘的转录分析。使用无偏见的测定法确定了DEG，但是，在实验上研究DEG的决策受到许多因素的偏见，导致许多DEGS仍未被评估。一组与疾病在实验上相关的DEG，但与文献中的疾病尚无相关性，被称为无知组。先兆子痫具有广泛的科学文献，大量的DEG数据库，只有一种确定的治疗方法。促进基于知识的分析的工具能够将许多来源的不同数据结合起来，以提出基本的行动机制，可能是支持发现并提高我们对这种疾病的理解的宝贵资源。在这项工作中，我们证明了如何使用生物医学知识图（KG）来识别新型的先兆子痫分子机制。现有的开源生物医学资源和公开可用的高通量转录分析数据用于识别和注释当前未经资助的先兆子痫相关的DEG的功能。使用文本挖掘方法从PubMed摘要中鉴定出与先兆子痫相关的基因。文本媒介和荟萃分析衍生的列表的相对补体被确定为未经投票的前启示性脱位相关的DEG（n = 445），即先前的无知组。使用KG研究相关的DEG，揭示了53种新型临床相关和生物学作用的机械关联。

translated by 谷歌翻译

ESFPNet: efficient deep learning architecture for real-time lesion segmentation in autofluorescence bronchoscopic video

Qi Chang , Danish Ahmad , Jennifer Toth , Rebecca Bascom , William E. Higgins

分类：计算机视觉

2022-07-15

肺癌往往在晚期检测到，导致患者死亡率高。因此，最近的研究集中在早期疾病检测上。肺癌通常首先出现在气道壁的支气管上皮内发生的病变。支气管镜检查是有效无创支气化病变检测的选择程序。特别是，自身荧光支气管镜检查（AFB）区分了正常组织和患病组织的自荧光特性，在AFB视频帧中，病变在AFB视频帧中显得红棕色，而正常组织则为绿色。由于最近的研究表明AFB具有高病变敏感性的能力，因此在标准的支气管镜呼吸道考试中，它已成为一种潜在的关键方法，用于早期肺癌检测。不幸的是，对AFB视频的手动检查非常乏味且容易出错，而有限的努力已花费在可能更健壮的自动AFB病变检测和细分方面。我们提出了一个实时的深度学习体系结构ESFPNET，用于从AFB视频流中对支气管病变的强大检测和分割。该体系结构具有编码器结构，该结构可利用预审计的混合变压器（MIT）编码器和阶段特征金字塔（ESFP）解码器结构。来自肺癌患者气道考试的AFB视频的结果表明，我们的方法分别给出了平均骰子指数和0.782和0.658的IOU值，而处理吞吐量为27帧/秒。这些值优于使用混合变压器或基于CNN的编码器的其他竞争体系结构获得的结果。此外，ETIS-LaribpolypDB数据集的出色性能证明了其对其他域的潜在适用性。

translated by 谷歌翻译

FRAPPE: $\underline{\text{F}}$ast $\underline{\text{Ra}}$nk $\underline{\text{App}}$roximation with $\underline{\text{E}}$xplainable Features for Tensors

William Shiao , Evangelos E. Papalexakis

分类：机器学习 | (统计)机器学习

2022-06-19

张量分解已被证明可以有效分析多维数据的结构。但是，这些方法中的大多数都需要一个关键参数：所需组件的数量。在CandeComp/Parafac分解（CPD）的情况下，该值称为规范等级，并极大地影响了结果的质量。现有方法使用启发式方法或贝叶斯方法通过反复计算CPD来估计该值，从而使它们在计算上非常昂贵。在这项工作中，我们提出了Frappe和Frappe：一种便宜的监督和一种自制的方法，可以估算张量的规范等级，而无需计算CPD。我们称坦率的监督称为Frappe，因为它使用了完全合成的训练集，而无需实际示例。我们评估了这些方法关于合成张量，已知等级的实际张量和卷积神经网络的重量张量的评估。我们表明，Frappe和Fell-Frappe在有效性和速度方面都提供了巨大的提高，各自的$ 15 \％$ $和$ 10 \％$ $ $ $ $ $改善的MAPE和$ 4000 \ times $和$ 13 \ times $ \ times $ $提高评估速度超过了最佳的评估速度 - 绩效基线。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Towards a Change Taxonomy for Machine Learning Systems

Aaditya Bhatia , Ellis E. Eghan , Manel Grichi , William G. Cavanagh , Zhen Ming , Jiang , Bram Adams

分类：人工智能

2022-03-21

机器学习（ML）研究出版物通常在GitHub上提供开源实现，使他们的受众可以复制，验证甚至扩展机器学习算法，数据集和元数据。但是，到目前为止，关于此类ML研究存储库的协作活动程度知之甚少，特别是（1）此类存储库从叉子获得贡献的程度，（2）此类贡献的性质（即类型，变化），以及（3）变更的性质，这些变化未归还给叉子，这可能代表了错过的机会。在本文中，我们对1,346毫升研究存储库及其67,369叉进行了验证，无论是定量还是定性（通过Hindle等人的构建代码更改的开创性分类法）。我们发现，尽管ML研究存储库是大量分叉的，但只有9％的叉子对叉子存储库进行了修改。后者的42％发送给家长存储库的更改，其中一半（52％）被父家存储库接受。我们对539个贡献的定性分析和378个本地（仅叉）变化，扩展了Hindle等人的分类法，其中一个与ML（数据）相关的新顶级变更类别和15个新的子类别，包括9个ML--特定的（输入数据，输出数据，程序数据，共享，变更评估，参数调整，性能，预处理，模型培训）。虽然没有由叉子造成的更改主要是涉及域特定于域的定制和本地实验（例如，参数调整），但原点ML存储库确实错过了不可忽视的15.4％文档更改的13.6％的功能更改，而功能更改的13.6％和11.4％的错误修复更改。本文中的发现将对从业者，研究人员，工具匠和教育者有用。

translated by 谷歌翻译